音声情報処理 06
基本周波数抽出と連続発声された⾳声の認識
声の高さ
方法
相関値のピークを⽰す遅れ時間幅を計算する
過去の系列のどこに似ているのか
過去の中で相関値が⾼い≒周期
2倍の周期や1/2の周期が基本周波数として抽出されることもある
半ピッチ,倍ピッチエラーと言われる
細かなリズムを検出可能
⾳⾼の差を捉えきれない
1分間(60秒)内での4分⾳符の数
連続発声された⾳声
実際の発話から得られる⾳声信号は⾮定常
変わってない部分
各区間の⾳響特徴量の変化を捉える • 多次元ベクトルが時間的に変化する
定常過程をおく分析区間
フレームの移動時間幅
副次的な特徴量の抽出
フレーム間の変化量
フレームとフレームの間でどのように特徴量が変化したのか
フレーム間の変化量の変化
「フレーム間の特徴量の変化」がどのように変化したのか
特微量の次元をd次元とすると,⊿特徴量と⊿⊿特徴量を含めると1フレームあたり,d⊿特徴量が得られる ⾳同⼠の距離尺度
2⾳(2フレーム)の⾳響的差異
フレーム間の⾳響特徴量の差異で定量的に計算可能
ケプストラム係数の差
時間構造が異なる⾳の⽐較
2種類の⾳の時間帳が等しく,それぞれの⾳のフレームが対応していれば, $ d_{spec}(S,T) をフレーム分だけ累積すれば良い
実際には,同じ単語でも発声⻑はいろいろな要因で異なる
異なる単語間の対応関係は不明
累積距離が最⼩となるような対応付けを求める
最⼩累積距離を2⾳の距離とする
距離の求め方
累積距離が最⼩となるパスを探す
実は,レーベンシュタイン距離の連続値版
⽂字の⼀致/不⼀致 = 0/1
DPマッチング
特徴ベクトルの類似度 = 連続値
DPマッチングにおける距離の計算